解析DeepSeek-OCR——怎么做到压缩10倍还不丢信息的
早上,它在 AlphaArena 炒币大赛上拿下实盘第一;晚上,顺手扔出一个全新开源模型:DeepSeek-OCR。
早上,它在 AlphaArena 炒币大赛上拿下实盘第一;晚上,顺手扔出一个全新开源模型:DeepSeek-OCR。
在北京首都机场,旅客们可以看到三家云厂商的姿态各异的广告:阿里云宣称“AI云市场份额领先,超过第2-4名总和”,火山引擎强调“占中国公有云大模型市场份额46%”,百度智能云则标榜“连续六年中国AI公有云市场份额领先”。
你是不是也有过这样的经历?线上服务突然报警,数据库 QPS 飙升到平时的 3 倍,排查半天发现是缓存方案出了问题 —— 明明用了大家都推荐的延迟双删,却还是躲不过数据不一致和缓存击穿的坑。今天就跟大家分享一个真实电商平台的技术踩坑案例,看看他们是怎么从 “踩坑
【DeepSeek团队开源新模型DeepSeek-OCR:少量视觉token完成海量文本压缩】财联社10月20日电,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩
开源 deepseek token 模 deepseek团队 2025-10-20 18:27 2
今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。
模型 开源 ocr token deepseek团队 2025-10-20 15:56 3
在最近的云栖大会上,虽然各类AI Agent百花齐放,但真正能够实现商业闭环、形成用户粘性的场景依然屈指可数。如果你仍在PPT上写着“让AI替代80%员工”,那么我建议你把这篇文章转发给你的老板,或许能为你保住一份工作。
最近,一份曝光的OpenAI“隐秘客户榜”揭示了哪些公司在烧掉上万亿Token。这份名单显示,Duolingo、Salesforce、Shopify等知名企业正在大规模使用OpenAI的API,推动了Token的快速增长。
一份新论文显示,Meta 的研究团队找到一种让大模型“用更少思维,想得更清楚”的办法。
基于全新Rust语言实现,训练分词器(tokenizer)在FineWeb数据集上预训练Transformer架构大语言模型,并通过多项指标评估CORE得分在SmolTalk用户-助手对话数据集、多项选择题数据集、工具使用数据集上进行中期训练(Midtrain
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂
在当今数字时代,大语言模型(LLM)已成为重塑人机交互的核心技术。然而,这些看似智能的AI系统并非天生具备理解与生成语言的能力,而是源于一套严谨、复杂的多阶段建模流程:
测评显示,在有限输出 Token 条件下,Ling-1T于多项复杂推理基准中取得 SOTA 表现,展示出在高效思考与精确推理之间的卓越平衡。另外,在代码生成、软件开发、竞赛数学、专业数学、逻辑推理等多项高难度基准测试上,Ling-1T 均取得领先成绩,多项指标
Coinbase 孵化的以太坊二层 Base 发布 “Token & Governance Research Specialist” 招聘,职责包括制定潜在代币目标、分阶段治理路线图、起草 “Base 宪章”、设计链上投票与立法流程,并协同技术、法务与社区团队
coinbase token coinbasel2 l2ba 2025-10-09 08:34 3
平时用ChatGPT问“周末去哪玩”,你以为它直接看懂了这句话?其实不是,它看到的是拆成好几段的“Token”,比如['周末','去','哪玩','?']。
2025年,大模型玩家们还在为“显存焦虑”头疼:想跑Llama-3、Qwen3这类大模型,动辄需要24GB、48GB显存的高端显卡,一张RTX 4090(24GB)近万元,更别说A100、H100这类数据中心级GPU——普通人根本玩不起。
GPT(Generative Pre-trained Transformer)系列模型是基于Transformer 架构的生成式大语言模型,核心逻辑可拆解为 “预训练 - 微调” 两大阶段,通过 “理解语境 - 预测下一个词” 的方式实现自然语言生成,以下从技
模型 gpt transformer 向量 token 2025-09-30 15:21 2
昨天DeepSeek 发布了一个带有里程碑意义的版本DeepSeek-V3.2-Exp,其最大亮点在于引入了一种新的注意力机制:DeepSeek Sparse Attention(简称 DSA)。
360集团创始人周鸿祎近日做客罗永浩的播客节目,进行了一场长达三个半小时的深度对谈。在这场坦诚的交流中,周鸿祎从AI技术的本质、产业落地到人机融合,给出了诸多犀利判断,特别是AI创业者们看完一定会很有启发。
分别实现DeepSeek R1大模型Token生成速度8.9毫秒、推理成本降至每百万Token1元,为智能体产业化落地提供了高速度、低成本的算力基础设施。
一个是国内大模型最快Token生成速度:基于元脑SD200超节点AI服务器,DeepSeek R1大模型Token生成速度仅需8.9毫秒;另一个是百万Token成本首次击破1元,基于其最新发布的元脑HC1000超扩展AI服务器。